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(57) Abstract: The invention concerns a system for voice-operated control of a page designed to be displayed on a client device (2), 
which can exchange data with a remote server (I) via a telecommunication network (3), and which comprises means (I L 12) for 
rH recording a voice command spoken by a user, and speech recognition means enabling; from a recorded voice command, to determine 
^ and automatically conu^ol the execution of an action associated with said voice command. The server (1) comprises in storage, 
connected with said page (page (I).htm), at least a dictionary (page (l).ias) of one or several voice links comprising for each voice 
link at least an audio recording of the voice command; the client device is adapted to download in storage each dictionary associated 
^ with the page, and the speech recognition means of the client device (2) comprise a speech recognition programme (E) which is 
^ designed to carry out a comparison of the audio recording corresponding to the voice command with the audio recording(s) of each 
Q\ dictionary associated with the page. 



(57) Abr^^ : Le systeme permct la commande vocale d'une page dcstinee a etrc visuaHsee sur un dispositif client (2), qui d'une 

Opart pcut ^^hanger des donnees avec un serveur (1) distant via un reseau de telecommunication (3), et qui d'autre part comprend des 
moycns (11, 12) permeuant Tenregistrement d'une commande vocale prononcee 
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par un utilisateur, et des moyens de reconnaissance vocale permettant, a partir d'une commande vocale enregistree, de determiner et 
de commander automatiquemerit 1 'execution d'une action associee a cette commande vocale. I^ serveur (1) comporte en memoire, 
en lien avec ladite page (page (l).htm, ), au moins un dictionnaire (page (l).ias, ) d*un ou plusieurs liens vocaux comprenant pour 
chaque lien vocal au moins un enregistrement audio de la commande vocale; le dispositif client est apte a telecharger en memoire 
chaque dictionnaire associe a la page, et les moyens de reconnaissance vocale du dispositif client (2) component un programme 
de reconnaissance vocale (E) qui est con9U pour realiser une comparaison de 1' enregistrement audio correspondant a la commande 
vocale avec le ou les enregisu-ements audio de chaque dictionnaire associe a la page. 
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SYSTEME DE COMMANDE VOCALE D'UNE PAGE STOCKEE SUR UN 
SERVEUR ET TELECHARGEABLE EN VUE DE SA VISUALISATION 
SUR UN DISPOSITIF CLIENT 

5 La presents invention conceme la cdmmancle voce I e de pages 
accessibles sur un serveur via un reseau de telecommunication, et plus 
particulierement de pages hypertextes. Elle trouve principalement. mais 
non exclusivement, son application a la navigation hypertexts par 
commande vocale sur un reseau ds tslecommunication de type Internet 

10 Dans le present texte, le terme « serveur » designe tfune maniere 

generale tout systeme informatique dans lequel sent stockees des 
donnees et qui est consultable a distance via un reseau de 
telecommunication. 

Le terme « page » designe tout document prevu pour etre affiche 

15 sur un ecran et stocke sur un site serveur a une adresse donnee. 

Le terme « dispositif client » designe d'une maniere generale tout 
dispositf informatique apte a envoyer des requetes a un site serveur pour 
que ce dernier lui envoie en retour les donnees objets de la requete, et en 
particulier un page determinee, par exemple identifies dans la requete 

20 par son adresse sur le serveur. 

Le terme reseau de telecommunication designe d'une maniere 
generale tout moyen de communication permettant I'echange de donnees 
a distance entre un site serveur et un dispositif client ; il peut s'agir d'un 
reseau local (LAN) tel que I'intranet d'une entreprise ou encore d'un 

25 reseau longue distance (WAN) tel que par exemple le reseau Internet, ou 
encore d'un ensemble de reseaux de type differents et interconnectes. 

Pour simplifier renvoi a distance de pages entrs un serveur et un 
dispositf client connects a ce serveur via un reseau de 
telecommunication, on utilise couramment des systemes de navigation 

30 hypertexte, qui permettent de naviguer parmi un ensemble de pages 
reliees les unes aux autres par des liens encore appeles liens hypertextes 
ou hyper-liens. En pratique, dans un systeme de navigation hypertexte, 
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une page hypertexte contient en plus du texte de base devant etre affiche 
a Tecran. des caracteres ou sequences de caracteres particuliers qui 
peuvent faire ou non partie integrante du texte de base, et qui constituent 
les liens hypertextes de la page. Lorsque que ces liens hypertextes font 
5 partie integrante du texte de base de la page, ils sont differencies des 
autres caracteres de la page de base, par exemple en etant soulignes 
et/ou visualises dans une autre couleur, etc. Pour la gestion de la 
navigation i^ypertexte, le dispositif client est de maniere usuelle equipe 
d'un logiciel de navigation, encore appele navigateur. Lors de la selection 
10 par un utilisateur d'un lien hypertexte dans la page en cours de 
visualisation, le logiciel de navigation dans un premier temps etablit et 
envoie automatiquement une requete au serveur, permettant a ce dernier 
d'envoyer la page attachee au lien hypertexte qui a ete selectionne, et 
dans un second temps affiche a I'ecran la nouvelle page qui lui est 
1 5 envoyee par le serveur. 

Afin de faciliter Tactivation des liens hypertextes dans un systeme 
de navigation hypertexte, on a dej^ propose des systeme d'activation par 
commande vocale, dans lesquels le lien hypertexte est prononce par 
I'utilisateur, et est reconnu automatiquement par un systeme de 
20 reconnaissance vocale. Xes systemes d'activation vocale remplacent 
avantageusement les systemes d'activation manuelle traditionnels 
(clavier/souris), et deviennent meme indispensables dans toutes les 
applications ou il n'est pas envisageable ou souhaite de mettre oeuvre un 
outil manual tel qu'un clavier ou une souris. Un exemple de ce type 
25 d'application est la navigation vocale sur le reseau mondial internet au 
moyen de telephones, portables WAP. 

A ce jour, tous les systemes d'activation vocale de liens dans une 
page hypertexte sont essentiellement bases sur une analyse automatique 
(« parsing ») de la page hypertexte, sur une detection automatique les 
30 liens presents dans la page, et sur la generation automatique de 
phonemes a partir de chaque lien detecte. 
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Plus particulierement dans le brevet US-A- 6,029,135 , on decht un 
systeme de navigation hypertexte par commande vocale qui peut etre mis 
en oeuvre selon deux variantes : una premiere yariante dite « run time » et 
une seconde variante dite « off line ».. Dans la variante « off line ». i! est 
5 . enseigne de faire generer par le producteur de pages hypertextes, « des 
donnees supplementaires >> pour la commande vocale de ces pages, 
lesquelles donnees supplementaires sont telechargees avec la page 
hypertexte depuis le serveur. Ces « donnees supplementaires » sont 
utilisees par le « client » pour effectuer la reconnaissance vocale des 

10 mots prononces par un utilisateur via un microphone, rintelligence de 
reconnaissance vocale etant localisee.au niveau du client Dans Tunique 
mode de realisation decrit, les «donnees supplementaires » sont 
constitutes par un dictionnaire de phonemes, associe a un modele de 
probabilite. Le dictionnaire de phonemes et le modele de probabilite 

15 associe sont generes automatiquement a partir de la page par analyse 
automatique du contenu du document et extraction automatique des liens 
presents dans le document.. A cet effet, un logiciel specifique appele 
^manager » est utilise. 

Les solutions de Tart anterieur et en particulier celle retenue dans 

20 le brevet. US-A- 6,029.135 presentent Tinconvenient majeur d'etre basees 
sur une reconnaissance phonetique, ce qui d'une part complique la 
reconnaissance vocale, et est une source Jmportante d'erreur , et ce qui 
d'autre part impose la mise en oeuvre d'un logiciel complexe 
(« manager ») permettant la traduction automatique de chaque mot sous 

25 forme de phonemes, et Telaboration automatique de modele de 
probabilite pour la mise en ceuvre de la reconnaissance phonetique. Le 
logiciel de traduction phonetique est d'autant plus complexe si Ton 
souhaite par exemple integrer differentes prpnonciations d'un mot, pour 
tenir compte de la langue.. Egalement, ce type de solution presente 

30 rinconvenient d'etre dependant d'une langue pour la transcription 
automatique du texte de la commande vers sa traduction en phonetique. 
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Pour les raisons ci-dessus, ces solutions sont a ce jour relativement 
onlreuses, sont reservees ^ des systemes de navigation professionnels 
tres specialises, et sont done peu adaptees a des applications dites grand 
public. 

5 La presente invention a pour principal objet un systeme qui permet 

la commande vocale rfune page qui est destinee a etre visualisee sur un 
dispositif client apte a echanger des donnees avec un serveur distant via 
un reseau de telecommunication, et qui pailie les inconvenients precites 
des systemes existants/ Par commande vocale d'une page, on vise non 

10 seulement Tactivation vocale de liens associes a la page, mais egalement 
et plus generalement I'activation par la voix de toute commande associee 
a la page visualisee, la commande n'etant pas necessairement 
materialisee par un mot visualise sur Tecran du dispositif client mais 
pouvant etre cachee.'L'execution de la commande associee a une page 

15 peut etre de nature variee et n'est pas limitative de Tinvention ( activation 
d'un lien hypertexte renvoyant sur une nouvelle page du serveur, 
commande de peripheriques du dispositif client tel que par example une 
imprimante, ouverture ou fermeture de fenetres sur le dispositif client, 
deconnexion du dispositif client, connexion du dispositif client sur un 

2 0 nouveau serveur etc.). 

De maniere cdnnue, notamment par le brevet US-A- 6,029,135, le 
dispositif client comprend des moyeris tels qu'un microphone et un carte 
d'acquisition audio, permettant Tenregistrement une commande vocale 
prononcee par un utilisateur, et des moyens de reconnaissance vocale 

25 permettant, a partir d'une commande vocale enregistree, de determiner et 
de commander automatiquement I'execution une action associee a cette 
commande. 

De maniere caracteristique et essentielle selon Tinvention, le 
serveur comporte en memoire en lien avec ladite page au moins un 
30 dictionnaire rfun'ou plusieurs liens vocaux comprenant pour chaque lien 
vocal au moins un enregistrement audio de la commande vocale ; le 
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dispositif client est apte a telecharger en memoire chaque dictionnaire 
associe a la page, et les. moyens de reconnaissance vocale du dispositif 
client comportent un programme de reconnaissance vocale qui est congu 
pour realiser une comparaison de I'enregistrement audio correspondant a 
5 la commande vocale avec ie ou les enregistrements audio de chaque 
dictionnaire associe a la page. 

D'autres caracteristiques et avantages de Tinvention 
apparaitront plus clairement a la lumiere de ia description ci-apres d'un 
exemple particulier de realisation, laquelle description est donnee a titre 
10 d'exemple non limitatif et en reference aux dessins annexes sur lesquels : 

- la figure 1 est une representation schematique des principaux 
elements composant un systeme de commande vocale conforme a 
I'invention, 

- la figure 2 represents les principales etapes d'un programme 
15 d'aide a ia creation d'un dictionnaire d.e liens vocaux caracteristiques de 

rinvention, et de mise en relation du dictionnaire cree avec une page d'un 
serveur, en vue de la commande vocale de cette page, 

- les figures 3 a 6 sent des exemples de fenetres generees par Ie 
programme d'aide a la creation de dictionnaires, 

20 - la figure 7 illustre les principales etapes mises en oeuvre par un 

dispositif client dans la. phase de telechargement d'un dictionnaire 
associe a une page fournie par un serveur. 

- la figure 8 illustre les principales etapes mises en oeuvre par le 
programme de reconnaissance vocale execute en local par le dispositif 

25 .client. 

En reference , a la figure 1, dans un exemple particulier de 
realisation, invention met en oeuvre un serveur informatique 1 , sur lequel 
peuvent se connecter un ou plusieurs dispositifs clients 2 via un reseau 
de telecommunication 3. Plus particulierement, dans Texemple illustre, le 
30 serveur informatique 1 heberge de maniere usuelle un ou plusieurs sites 
web, et les dispositifs clients sont census pour se connecter sur le serveur 
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1 via le reseau mondial Internet, et pour echanger des donnees avec ce 
serveur selon le protocole de communication IP usual. 

Chaque site web heberge par le serveur 1 est constitue d'une 
pluralite de pages html materialisees par des fichiers au format .htm 
5 (figure 1 /^pagelhtm, etc..) et relies entre elles par des hyper-liens. Ces 
pages sent stockees de maniere usuelle dans una unite memoire 4 
accessible en lecture et ecriture par I'unite de traitement 5 du serveur 1. 
Outre Tunite memoire 4 et I'unite de traitement 5, le serveur 1 comporte 
egalement de maniere usuelle des moyens d'entree/sortie 6. comprenant 

10 au moins un clavier permetiant a un admlnistrateur du serveur de saisir 
des donnees et/ou commandes, et au moins un ecran permettant la 
visualisation des donnees du serveur, et notamment la visualisation des 
pages d*un site. Pour la gestion de Techange da donnees avec un client 2 
via le reseau 3, I'unite de traitement 5 comporte en memoire vive un 

15 logiciel serveur A connu en soit, et permettant notamment renvoi a un 
client 2 connecte au serveur 1 du ou des fichiers correspondant a la 
requete du client. 

Un dispositif client 2 comporte de maniere connue une unite de 
traitement 7 apte a etre connectee via une interface de communication 

20 au reseau 3, et connectee egalement a des moyens d'entree/sorties 8, 
dont au moins un ecran pour la visualisation de chaque page html 
envoyee par le serveur 1 . Uunite de traitement met en oeuvre un logiciel 
de navigation B connu en soit, encore appele navigateur (par exemple le 
logiciel de navigation de Netscape). 

25 L'invention, dont les moyens nouveaux vont a present etre detailles 

a la lumiere d'un exemple particulier de realisation, n'est pas limitee a une 
application de type Internet, mas peut d'une maniere plus generate etre 
appliquee a toute architecture client/serveur independamment du type de 
reseau de telecommunication et du protocole d'echange de donnees 

30 utilises. Egalement, le dispositif client peut indifferemment etre un poste 
fixe, ou comprendre une unite mobile tel qu'un telephone portable, de 
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type WAP, permettant un acces au reseau de telecommunication 3. 

L'invention repose de maniere essentielle sur la mise en oeuvre, 
pour cheque page du serveur a laquelle on souhaite associer une 
fonction de commande vocale, d'au moins un dictionnaire de liens 
5 vocaux. qui est stocke en memoire du serveur 1 en lien avec ladite page, 
et qui presente la particularite de contenir pour cheque commande 
vocale, au moins un enregistrement audio, de preference sous forme 
compressee, de la commande vocale. Dans Texemple illustre sur la figure 
1, a chaque page html est associe en memoire un unique dictionnaire 

1 0 materialise par un fichier comportant le meme nom que la page mais avec 
une extension differente arbitrairement designee « .ias » dans la suite de 
la presente description. Ainsi, a ja page html materialisee par le fichier 
page 1 .htm est associe, en memoire du serveur 1 , le fichier dictionnaire 
pagel.ias, etc... Dans une autre variante, il est envisageable d'associer 

15 plusieurs dictionnaires a une meme page. 

Pour permettre la construction des fichiers dictionnaires ( .ias), le 
serveur lest equipe d'un microphone 9 connecte a une carte d'acquisition 
audio 10 (connue en soit), qui d'une maniere generale permet de 
transformer le signal analogique delivre par le microphone 9 en une 

20 information de type numerique. Cette carte, d'acquisition audio 10 
communique avec I'unite de traitement 5 du serveur 1, et permet a ce 
dernier d'effectuer I'acquisition via le microphone 9 d'enregistrements 
vocaux sous forme numerique. L'unite de traitement 5 est en outre apte a 
executer un logiciel C specifique de I'lnvention. dont une variante sera 

25 decrite ci-apres, et qui permet d'assister le createur d'un site web dans la 
construction des dictionnaires de liens vocaux. 

De maniere simiiaire, afin de permettre l*acquisition par l'unite de 
traitement 7 d'un dispositif client 2 d'une commande vocale prononcee 
par I'utilisateur, ledit dispositif client 2 est egalement equipe d'un 

30 microphone 11 et d'une carte ^acquisition audio 12. Tel que cela sera 
explique de maniere plus detaiilee ulterieurement, la reconnaissance 
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vocale automatique d'uns commande vocale prononcee par I'utilisateur 
du dispositif client 2, en liaison avec une page en cours de visualisation 
sur I'ecran du dispositif client 2, est realis§e en local par ("unite de 
traitement 7 du dispositif client 2, apres telechargement du fichier 
5 dictionnaire associe 4 la page en cours de visualisation. 

Soecifications d'un Fichiers Dictionnaire f.ias) 

Dans un exemple de realisation, un fichier dictionnaire contient un ou 
10 plusieurs liens vocaux enregistres les uns & la suite des autres, chaque 
lien vocal possedant plusieurs attributs concatenes : 

1. le nom (qui correspond au mot phonetique de la commande vocale qui 
doit etre prononce par I'utilisateur pour activer le lien) ; 

2. le type 

15 3. I'adresse (plus communement appelee URL) permettant de localiser 
sur le serv^ur la ressource associee a la commande vocale ; 

4. la cible ( c'est-a-dire le nom de la fenetre dans la quelle doit d'afficher 
la nouvelle page) ; 

5. un enregistrement audio (encore appele modele acoustique) masculin 
20 6. un. enregistrement audio ( encore appele modele acoustique) feminin 

L'attribut « type » d'un lien vocal est utilise notamment pour specifier : 

- qu'il s'agit bien d'un lien vocal et pour le differencier par exemple des 
hyper lien d'une page html sans possibilite de commande vocale. 

25 - s'il s'agit d'un lien dont le nom apparait dans le texte de la page 
associee , 

- si ce lien doit etre cache ou si au contraire le nom du lien peut etre 
affiche sur I'ecran du dispositif client 2 dans une fenetre specifique 
contenant pour I'utilisateur les noms de tous les liens (non caches) qu'il 

30 peut activer par la voix. 
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Plus particulierement, a titre d'exemple . en langage C**, un lien vocal 
peut etre transcrit de la maniere suivante : 



Information 


typeC 


Taille en 
octets 


Tallie maximale 


Valeurs 
permises 


Type de lien 


DWORD 


4 


4 


voir plus bas 


Taille du nom 


Short 


2 


2 


nombre positif 


Nom 


chars 


taille du nom 


200 


caract^res 
ANSI 


Taille du lien URL 


short 


2 


2 


nombre positif 


URL 


chars 


taille du lien URL 


2048 


caracteres 
ANSI 


Taille de la cibie 


short 


2 


2 


nombre positif 


able 


chars 


taille de la cible 


200 


caracteres 
ANSI 


Taille du modele 
acoustique mascuiin 


short 


2 


2 


nombre positif 


Modele acoustique 
mascuiin 


chars 


tallie du modele 


2048 


toutes 


Taille du modele 
acoustique f6minin 


short 


2 


2 


nombre positif 


Modele acoustique 

f&minin 


chars 


taille du modele 


2048 


toutes 



5 



Programme de construction d'un fichier Dictionnaire (figure 2) 

10 Les principales etapes du programme de creation d'un ficliier 

dictionnaire vont a present etre expliquees en reference principalement a 
la figure 2. Dans I'exemple de la figure 1, ce programme est execut§ par 
I'unite de traitement 5 du serveur, apr§s que I'admlnistrateur du serveur 
ait choisi I'option correspondante permettant le lancement du programme. 

15 Neanmoins, dans une autre application, ce programme pourra 
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avantageusement etre mis a la disposition du createur d'un site web. en 
etant mis en ceuvre sur une machine differente du serveur, les fichiers 
dictionnaires (.ias) crees a I'aide de ce programme ainsi que les pages du 
sites web etant ensuite telecharges dans Tunite memoire 4 du serveur 2. 
5 Enl^eference a la figure 2, la creation d'un fichier dictionnaire page 

(m)jas associe a une page html commence (etape 201) par Touverture du 
fichier page (m).htm de la page, suivie d'une extraction automatique des 
hyper liens presents dans la page (etape 202) et de la creation d*un 
fichier dictionnaire page(m).ias avec ouverture d'une fenetre de 
10 visualisation et de modification et/ou saisie de liens vocaux de ce 
dictionnaire (fenetre « Dictionnaire » / etape 203). On a represente sur la 
figure 3, un exemple de fenetre creee a Tissue de I'etape 203. Dans cet 
exemple, ont ete detectes et extraits automatiquement de la page(m).htm 
trois hyper liens, et pour chacun des ces hyper-liens a ete cree 
IS automatiquement dans le dictionnaire associe page(m).ias, un lien vocal 
dont Tattribut adresse contient I'adresse URL de I'hyper lien 
correspondent retrouve automatiquement dans le fichier page (m).htm. 

A partir de cette premiere fenetre (figure 3). il est possible soit de 
selectioriner dans la fenetre de ia figure 3 un lien existent dans le 
20 dictionnaire ( etape 204), soit de creer un nouveau lien vocal dans le 
dictionnaire (etape 205) en selectionnant la commande appropriee dans 
un menu gere par la fenetre de la figure 3. 

II convient ici de souligner que la fonction de creation d'un nouveau 
lien vocal permet avantageusement de creer une commande vocale, qui 
25 ne correspond pas necessairement a un hyper lien present dans la page, 
et par la-meme offre la possibilite de programmer des commandes 
vocales variees, et qui plus est des commandes cachees. Egalement, 
Tetape precitee d'extraction automatique (etape 202) est facultative, et ne 
se justifie que par un soucis de faciliter et d'accelerer la creation du 
30 dictionnaire, en'evitant a Tutilisateur de devoir creer manuellement dans 
le dictionnaire les liens vocaux correspondent a des hyper-liens de la 



BNSOOCID: <WO_0195087A1 J_> 



wo 01/95087 



PCT/FROl/01560 



11 

page et de devoir saisir les adresses URL correspondantes. 

En cas de selection d'un lien vocal existent ou de creation d'un 
nouveau lien vocal, le programme, ouvre . una deuxieme fenetre 
« proprietes du lien. » du type de celle illustree sur la figure 4 (etape 206), 

5 qui permet a rutilisateur de saisir et/ou modifier les attributs 
precedemment decrit d'un lien vocal. 

En particulier, dans cette fenetre rutilisateur a la possibilite de 
selectionner un premier bouton d'action « Enreg » pour I'enregistrement 
d'une commande vocale par une voix masculine et un second bouton 
10 d'action « Enreg » pour I'enregistrement d'une commande vocale par une 
voix feminine. Lorsque rutilisateur selectionne Tun des boutons d'action 
precites, le programme execute automatiquement un module d'acquisition 
d'un enregistrement audio. Ce module, une fois lance permet Tacquisitipn 
via le microphone 9 d'un enregistrement audio sous forme numerique de 

15 la commande vocale ( voix masculine ou .feminine selon le cas) pendant 
un laps de temps donne controle, et a Tissue de ce laps de temps realise 
une compression automatique de cet. enregistrement par tout precede 
connu de compression de donnees, puis sauvegarde cet enregistrement 
audio compresse dans le fichier dictionnaire page(m).ias 

20 Une fois que rutilisateur a valide que toutes les proprietes d'un lien 

vocal ont ete saisies ou modifiees, le programme ferme la fenetre 
« proprietes du lien » correspondante (etape 207), et une fois que tous 
les liens vocaux du dictionnaire page (m).ias ont ete crees de maniere 
complete, rutilisateur commande la fermeture de la fenetre 

25 « Dictionnaire » , et par la-meme la fermeture du dictionnaire page (m).ias 
(etape 208). La figure 5 illustre un exempie de fenetre « propriete du 
lien » pour le lien vocal « Superieur » mise a jour avant fermeture de la 
fenetre ; la figure 6 illustre un exempie de fenetre « Dictionnaire » mise a 
jour avant fermeture du dictionnaire page (m).ias. 

30 Une fois un dictionnaire page(m).ias completement cree, le 

programme cree automatiquement (etape 209) un lien entre la page 
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(fichier page(m).htm ) et le dictionnaire associe (fichier page{m).ias). et 
ferme le fichier dictionnaire (page(m).ias). Dans une variante de 
realisation, ce lien est cree par insertion du nom (page(m).ias) du 
dictionnaire associe dans le fichier (page(m).htm) de la page. Un exemple 
5 d'implementation du fichier page(m).htm est donne ci-dessous : 
<html> 
<head> 

<TITLE> ( titre du fichier de la page html) <n'lTLE> 
</heacl> 

10 

<body> 

<a href = <"suivante.htm"> Suivante</a><br> 
<a href = <'precedente.htm"> Precedente</a><br> 
15 <a href = <"superieur.htm"> Superieur</a><br> 

<p><embed src="page(m).ias" pluginspage="" type="application/x- 
NavigationByVoice" width="120" heigth="50"></embed></p> 

20 </body> 
</html> 

La phase de transmission d'un dictionnaire entre le serveur 1 et un 
25 dispositif client 2 ainsi que la phase de reconnaissance vocale vont a 
present etre detaillees en reference aux figures 1, 7 et 8. 

Transmission d'un dictio nnaires (.ias) 

30 Initialement a I'aide du programme navigateur (B), le dispositif client 2 
demande au serveur 1 de iui envoyer une page html ( par exemple le 
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fichier page(m).htm) De maniere usuelle, le navigateur (B) analyse le 
fichier page(m).htm et affiche sur I'ecran le contenu de la page au fur et a 
mesure ou i) repoit les donnees afferentes a cette page ( figure 7/ etape 
701). 

5 Au'cours de I'analyse automatique du fichier page(m).htm, lorsque 

le navigateur detecte I'information selon laqueile un dictionnaire est 
attache a cette page ( detection de src="page(m).ias" dans le fichier), il 
charge un module d'extension D (figure 1) stocke en memoire vive du 
dispositif client (etape 702), et parallelement lance un programme de 

10 reconnaissance vocale egaiement stocke en memoire vive, pour le cas ou 
ce programme n'aurait pas deja ete lance ( ce qui est le cas par exemple 
la premiere fois ou au cours d'une session une page (.htm) avec 
dictionnaire (.ias) attache est regue par le dispositif client 2). 

Le navigateur envoie ensuite une requete au serveur 1 (etape 703) 

15 afin que celui ci lui trans'mette le fichier dictionnaire page(m).ias Identifie 
dans le fichier page(m).htm. 

Apres reception par le dispositif client 2 du fichier dictionnaire 
page(m).ias, le navigateur (B) du dispositif client 2 envoie le fichier 
dictionnaire au module d'extension (D) (etape 705). 

20 Ce module d'extension (D) cree a son tour un lien entre le fichier 

dictionnaire page(m).ias et le programme de reconnaissance vocale (E) 
(etape 706). Ensuite (etape 707), le module d'extension (D) analyse le 
contenu du fichier dictionnaire page(m).ias et affiche a I'ecran pour 
I'utilisateur, par exemple dans une nouvelle fenetre, les noms (attribut 

25 « nom ») de tous les liens vocaux du fichier dictionnaire page(m).ias, pour 
lesquels la valeur .de I'attribut « type » autorise une visualisation 
(commandes vocales non cachees). (etape 706). 
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Reconnaissance vocale 

Cette fonction est assuree par le programme de reconnaissance vocale 
(E), a partir d'une commande vocale entree par Tutilisateur au moyen du 
5 microphone 11 et par comparaison avec le ou les fichiers dictionnaires 
avec lequel un lien a ete etabli. II convient ici de souligner que le 
programme de reconnaissance vocale peut etre lance avec 
simultanement plusieurs module d'extension actifs. 

Plus particulierement, en reference a la figure 8, une fois lance le 
10 programme de reconnaissance vocale (E) est dans Tattente de la 
detection d'un son par le microphone 1 1 . Lorsque I'utilisateur du dispositif 
client prononce une commande a la voix, celle-ci est enregistree 
automatiquement sous forme numerique ( etape 801). et le programme de 
reconnaissance vocal effectue une compression de cette enregistrement, 
15 en appliquant la meme methode de compression que celle utilisee par le 
programme (C) de creation de dictionnaires. Ensuite (etape 803), le 
programme de reconnaissance vocale (E) effectue automatiquement une 
comparaison des donnees numeriques correspondant a cet 
I'enregistrement audio compresse avec les donnees numeriques de 
20 chaque enregistrement audio compressi (modeles acoustiques masculins 
et feminins) du fichier dictionnaire page (m).ias. (ou d'une maniere 
generale de tous les fichiers dictionnaires pour lesquels un lien avec le 
programme de reconnaissance vocale est actif), en vue d'en deduire 
automatiquement le lien vocal du dictionnaire correspondant a la 
2 5 commande prononcee par rutillsateur. 

Plus particulierement, dans une variante de realisation de 
invention chaque comparaison des enregistrements audio compresses 
est mise en oeuvre selon la methode DTW (Dynamic Time Warping), et 
donne pour resultat une note de reconnaissance caracterisant le 
30 similitude entre les enregistrements. Seule la note la plus elevee est 
ensuite retenue par le programme de reconnaissance vocale, et 
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comparee avec un seuil de detection predetermine en dessous duquel il 
est considere que le mot prononce n'a pas ete reconnu comme une 
commande vocale. Si ia note la plus elevee resultant des comparaisons 
precitees est superieure a ce seuil, le programme de reconnaissance 
5 vocale recbnnait automatiquement le lien vocal correspondent a cette 
note comme etant la commande vocale prononcee par rutilisateur. 

De maniere avantageuse selon Tinvention, la reconnaissance 
vocale etant basee sur une comparaison d'enregistrements audio 
numeriques (enregistrements audios des liens vocaux d'un dictionnaire 

10 -las at de Tenregistrement audio de la commande vocale prononcee par 
rutilisateur), on simplifie et on fiabilise tres largement la reconnaissance 
vocale, comparativement a des systemes de reconnaissance de type 
phonetique tel que celui mis en oeuyre dans le brevet US-A- 6,029,135. 
Egalement, on s'affranchit de toute dependence a une langue particuliere. 

15 Apres reconnaissance d'un lien vocal, le programme de 

reconnaissance vocale envoie au navigateur (B) (etape 804) Taction qui 
est associee a ce lien vocal et qui est codee dans le dictionnaire, c'est-a- 
dire dans I'exemple particulier decrit precedemment Tadresse URL de ce 
lien vocal. 

20 Si Taction associee correspond au chargement et a Taffichage 

d'une nouvelle page identifiee par son adresse URL, le navigateur (B), 
avant Tenvoi de la requete appropri6e au serveur , decharge la page en 
cours de visualisation ( page(m),htm ) ainsi que le module cTextension qui 
lui est associe; lequel module d'extension avant dechargement casse le 

25 lien etabli entre le programme de reconnaissance vocale (E) et le fichier 
dictionnaire page(m).ias. Ensuite les etapes de fonctionnement sont 
reprises a Tetape (701) precitee. 

Dans Texemple particulier de realisation qui a ete decrit, cheque 
lien vocal est caracterise par une adresse (URL), qui est communiquee au 

30 navigateur du dispositif client lorsque ce lien vocal a ete reconnu par le 
programme de reconnaissance vocal, ce qui permet ensuite au navigateur 
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de dialoguer avec le serveur afin que ce dernier envoie au dispositif client 
la ressource correspondent a cette adresse. et par exemple une nouvelle 
page. Ceci n'est toutefois pas limitatif de I'invention. On peut generaliser 
Tutilisation de cet attribut « adresse »d'un lien vocal pour coder d'une 
5 maniere generate raction qui est associee a la commande vocale definie 
par le lien vocal, et qui doit etre automatiquement executee lors de la 
reconnaissance automatique d'un lien vocal par le programme de 
reconnaissance vocale. Ainsi, cette action codee dans Tattribut 
■ « adresse », peut non seulement etre une adresse localisant une 
10 ressource stockee sur le serveur 1, mais pourrait egalement etre une 
adresse localisant une ressource (donnees, programme executable, ...) 
stockee en local au niveau du dispositif client 2, ou un code de 
commande d'une action executable par le dispositif client tel que par 
exemple , et de maniere non limitative, la commande d'un peripherique en 
15 local au niveau du dispositif client (impression d'un document, ouverture 
ou fermeture d'une fenetre sur Tecran du dispositif client, arret de la 
communication avec le serveur et eventuellement mise en communication 
avec un nouveau serveur dont I'adresse serait specifiee dans I'attribut 
«adresse », deconnexion definitive du dispositif client par rapport au 
20 reseau de telecommunication 3, etc.). 
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REVENDICATJONS 

1. Systeme pour la commande vocale . d'une page destinee a etre 
5 visualisee sur un dispositif client (2), qui d'une part peut echanger des 

donnees avec un serveur (1) distant via un reseau de 
telecommunication (3), et qui d'autre part comprend des moyens 
(11,12) permettant renregistrement d'une commande vocale prononcee 
par un utilisateur, et des moyens de reconnaissance vocale permettant, 

10 a partir d'une commande vocale enregistree, de determiner et de 
commander automatiquement Texecution d'une action associee a cette 
commande vocale, caracterise en ce que le serveur (1) comporte en 
memoire, en lien avec ladite page, au moins un dictionnaire d'un ou 
plusieurs liens vocaux comprenant pour chaque lien vocal au moins un 

15 enregistrement audio de la commande vocale, en ce que le dispositif 
client est apte a telecharger en memoire chaque dictionnaire associe a 
la page, et en C9 que les moyens de reconnaissance vocale- du 
dispositif client (2) comportent un^ programme de reconnaissance 
vocale (E) qui est congu pour realiser une comparaison de 

20 renregistrement audio correspondent a la commande vocale avec le ou 
les enregistrements audio de chaque dictionnaire associe a la page. 

2. Systeme selon la revendication 1 caracterise en ce qu'un lien vocal 
comporte plusieurs enregistrements audio de la commande vocale. 
dont au moins un enregistrement d'une voix feminine et un 

25 enregistrement d'une voix masculine. 

3. Systeme selon la revendication 1 ou 2 caracterise en ce que la page 
du serveur (1) comporte une information identifiant le ou les 
dictionnaires associes, et en ce que le dispositif client (2) est con^u 
d'une part pour detecter cette information lors de la visualisation de la 

30 page, et d*autre part en cas de detection de cette information pour 
envoyer une requete au serveur (1) afin que ce dernier lui envoie le 
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dictionnaire identifie par cette information. 
4. Systeme selon Tune des revendications 1 a 3 caracterise en ce que 
chaque lien vocal d'un dictionnaire comporte une adresse permettant 
de localiser une ressource. 
5 5. Systeme selon Tune des revendications 1 a 4 caracterise en ce que 
chaque lien vocal d'un dictionnaire comporte un nom de la commande 
vocale, et en ce que le dispositif client est congu, apres reception d'un 
dictionnaire, pour lire et afficher les noms de tout ou partie des liens 
vocaux de ce dictionnaire. 

10 6. Systeme selon la revendication 5 caracterise en ce que le chaque lien 
vocal d'un dictionnaire comporte un attribut (« type ») permettant de 
specifier si une commande vocale doit etre cachee ou non, et en ce 
que le dispositif client (2) est conpu, apres reception d'un dictionnaire, 
pour lire et afficher les .noms uniquement des liens vocaux dont la 

15 valeur de Fattribut « type » autorise la visualisation. 

7. Serveur de donnees comportant une unite de traitement (5) et unite 
memoire (4) qui est accessible au moins en lecture par Tunite de 
traitement (5), et dans laquelle sont stockees une pluralite de pages 
destinees a etre visualisees sur un dispositif client (2) apres 

20 telechargement via un reseau de telecommunication (3), caracterise en 
ce que Tunite memoire (4) comporte en lien avec chaque page au 
moins un dictionnaire d'un ou plusieurs liens vocaux, chaque lien vocal 
comportant au moins un enregistrement audio d'une commande vocale. 

8. Serveur selon la revendication 7 caracterise en ce que chaque page du 
25 serveur comporte une information identifiant le ou les dictionnaires 

associes. 

9. Serveur selon la revendication 7 ou 8 caracterise en ce que chaque 
lien vocal comporte une adresse permettant de localiser une 
ressource, de preference dans Tunite memoire (4) du serveur (1). 

30 10. Dispositif client (2) qui d'une part est apte a echanger des donnees 
avec un serveur (1) distant et a telecharger et visualiser des pages de 
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donnees stockees en memoire du serveur (1). et qui d'autre part 
comprend des moyens (11,12) permettant renregistrement d'une 
commande vocale prononcee par un utilisateur, et des moyens de 
reconnaissance vocale permettant, a partir d^une commande vocale 
5 enregistree, de determiner et de commander automatiquement 
I'execution une action assoclee a cette commande, caracterlse en ce 
que le dispositif client (2) est congu pour telecharger en memoire 
depuis le sen/eur (1) un dictionnaire qui est associe a une page 
visualisee et qui contient un ou plusieurs liens vocaux, chaque lien 

10 vocal comprenant au moins un enregistrement audio d'une 
commande vocale, et en ce que les moyens de reconnaissance 
vocale du dispositif client (2) comportent un programme de 
reconnaissance vocale (E) qui est congu pour realiser une 
comparaison de Tenregistrement audio correspondant a la commande 

15 vocale prononcee par un utilisateur avec le ou les enregistrements 
audio de chaque dictionnaire qui a ete telecharge. 
1 1 . Support memoire (4) sur lequel est stockee au moins une page qui est 
visualisable sur un dispositif client (2) et qui comporte une pluralite 
d'instructions lisibles par le dispositif client, les instructions 

20 representant le contenu de la page et incluant une information qui 
identifie au moins un dictionnaire associe a la page, ledit dictionnaire 
comprenant un ou plusieurs liens vocaux, un lien vocal comprenant au 
moins un enregistrement audio d'une commande vocale, ladite 
information, une fois lue par le dispositif client, declenchant le 

25 telechargement depuis un sen/^eur (1.) distant dudit dictionnaire. 
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